在这项工作中,我们询问并回答是什么使经典的强化学习合作。在社会困境情况下合作对于动物,人类和机器至关重要。尽管进化论揭示了促进合作的一系列机制,但代理商学习合作的条件受到争议。在这里,我们证明了多项式学习设置的哪些单个要素如何导致合作。具体而言,我们考虑了在经典环境中,在经典的环境中,具有一定的囚犯困境,并在经典的环境中使用Epsilon-Greedy探索进行了广泛使用的时间差异增强算法。两个学习代理中的每一个都学会了一种策略,该策略可以在最后一轮的两个代理商的行动选择上进行以下动作选择。我们发现,除了对未来奖励的高度关心,较低的勘探率和较小的学习率之外,这主要是加固学习过程的内在随机波动,最终合作率将最终的合作率翻了一番,高达80 \%。因此,固有的噪声不是迭代学习过程的必要邪恶。这是学习合作的关键资产。但是,我们还指出了合作行为的很高可能性与在合理的时间内实现这一目标之间的权衡。我们的发现与有目的地设计合作算法和调节不希望的犯罪效果有关。
translated by 谷歌翻译
基于图形的大量系统的关键组成部分是能够检测轨迹中的环闭合以减少从探视法累积的漂移。大多数基于激光雷达的方法仅通过仅使用几何信息来实现此目标,而无视场景的语义。在这项工作中,我们介绍了Padloc,这是一种基于激光雷达的环路闭合检测和注册体系结构,其中包括共享的3D卷积特征提取主链,用于环路闭合检测的全局描述符,以及用于点云匹配和注册的新型变压器头。我们提出了多种方法,用于估计基于多样性指数的点匹配置信度。此外,为了提高前向后的一致性,我们建议使用两个共享匹配和注册头,并通过利用估计的相对转换必须相互倒数来交换其源和目标输入。此外,我们以新颖的损失函数的形式利用综合信息在培训期间,将匹配问题折叠为语义标签的分类任务,并作为实例标签的图形连接分配。我们在多个现实世界数据集上对PADLOC进行了广泛的评估,证明它可以实现最新的性能。我们的工作代码可在http://padloc.cs.uni-freiburg.de上公开获得。
translated by 谷歌翻译
长摩根和包括一系列隐性子任务的日常任务仍然在离线机器人控制中构成了重大挑战。尽管许多先前的方法旨在通过模仿和离线增强学习的变体来解决这种设置,但学习的行为通常是狭窄的,并且经常努力实现可配置的长匹配目标。由于这两个范式都具有互补的优势和劣势,因此我们提出了一种新型的层次结构方法,结合了两种方法的优势,以从高维相机观察中学习任务无关的长胜压策略。具体而言,我们结合了一项低级政策,该政策通过模仿学习和从离线强化学习中学到的高级政策学习潜在的技能,以促进潜在的行为先验。各种模拟和真实机器人控制任务的实验表明,我们的配方使以前看不见的技能组合能够通过“缝制”潜在技能通过目标链条,并在绩效上提高绩效的顺序,从而实现潜在的目标。艺术基线。我们甚至还学习了一个多任务视觉运动策略,用于现实世界中25个不同的操纵任务,这既优于模仿学习和离线强化学习技术。
translated by 谷歌翻译
对于与行人一起运行的移动机器人,对地面基础设施(例如道路和街道交叉路口)进行了牢固的分类。尽管许多语义分割数据集可用于自动驾驶汽车,但在此类数据集中训练的模型在部署在行人空间中的机器人上时表现出较大的域间隙。从行人角度录制的手动注释图像既昂贵又耗时。为了克服这一挑战,我们提出了TrackletMapper,这是一个注释地面类型的框架,例如人行道,道路和街道交叉点,而无需进行人类注销的数据。为此,我们将机器人自我trajectory和其他交通参与者的路径投射到自我视图相机图像中,为多种类型的接地表面创建稀疏的语义注释,从中可以从中训练地面分段模型。我们进一步表明,该模型可以通过汇总地面图并将其投影到相机图像中,从而自行启动,从而获得额外的性能优势,从而与稀疏的踪迹注释相比,创建了一组密集的训练注释。我们在定性和定量上证明了我们在一个新型的大型数据集上,用于在行人区域运营的移动机器人。代码和数据集将在http://trackletmapper.cs.uni-freiburg.de上提供。
translated by 谷歌翻译
设置机器人环境快速测试新开发的算法仍然是一个困难且耗时的过程。这给有兴趣执行现实世界机器人实验的研究人员带来了重大障碍。Robotio是一个旨在解决此问题的Python库。它着重于为机器人,抓地力和摄像机等提供常见,简单和结构化的Python接口。这些接口以及这些接口的实现为常见硬件提供了。此启用使用机器人的代码可以在不同的机器人设置上可移植。在建筑方面,Robotio旨在与OpenAI健身房环境以及ROS兼容。提供了这两种示例。该库与许多有用的工具一起融合在一起,例如相机校准脚本和情节记录功能,这些功能进一步支持算法开发。
translated by 谷歌翻译
在本文中,我们提出了USEGSCENE,该框架用于使用卷积神经网络对立体声相机图像的深度,光流和自我感动的无监督学习。我们的框架利用语义信息来改善深度和光流图的正则化,多模式融合和遮挡填充考虑动态刚性对象运动作为独立的SE(3)转换。此外,我们与纯照相匹配匹配互补,我们提出了连续图像之间语义特征,像素类别和对象实例边界的匹配。与以前的方法相反,我们提出了一个网络体系结构,该网络体系结构可以使用共享编码器共同预测所有输出,并允许在任务域上传递信息,例如,光流的预测可以从深度的预测中受益。此外,我们明确地了解网络内部的深度和光流遮挡图,这些图被利用,以改善这些区域的预测。我们在流行的Kitti数据集上介绍了结果,并表明我们的方法以大幅度的优于其他方法。
translated by 谷歌翻译
对于现代自治系统来说,可靠的场景理解是必不可少的。当前基于学习的方法通常试图根据仅考虑分割质量的细分指标来最大化其性能。但是,对于系统在现实世界中的安全操作,考虑预测的不确定性也至关重要。在这项工作中,我们介绍了不确定性感知的全景分段的新任务,该任务旨在预测每个像素语义和实例分割,以及每个像素不确定性估计。我们定义了两个新颖的指标,以促进其定量分析,不确定性感知的综合质量(UPQ)和全景预期校准误差(PECE)。我们进一步提出了新型的自上而下的证据分割网络(EVPSNET),以解决此任务。我们的架构采用了一个简单而有效的概率融合模块,该模块利用了预测的不确定性。此外,我们提出了一种新的LOV \'ASZ证据损失函数,以优化使用深度证据学习概率的分割的IOU。此外,我们提供了几个强大的基线,将最新的泛型分割网络与无抽样的不确定性估计技术相结合。广泛的评估表明,我们的EVPSNET可以实现标准综合质量(PQ)的新最新技术,以及我们的不确定性倾斜度指标。
translated by 谷歌翻译
机器人技术中的一个长期目标是建立可以从使用其板载传感器获得的感知中执行各种日常任务的机器人,并且仅通过自然语言指定。尽管最近通过利用从像素的端到端学习来实现了在语言驱动的机器人技术中的实质性进步,但由于设置的基本差异,没有明确且妥善理解的过程来做出各种设计选择。在本文中,我们对从离线自由模仿数据集中学习语言条件政策的最关键挑战进行了广泛的研究。我们进一步确定了改善性能的架构和算法技术,例如机器人控制学习的层次分解,多模式变压器编码器,离散的潜在计划以及与视频和语言表示一致的自我监视的对比损失。通过将调查的结果与改进的模型组件相结合,我们能够提出一种新颖的方法,该方法在具有挑战性的语言条件长的长摩托器机器人操纵Calvin基准上大大优于最新技术。我们已经开源的实施方式,以促进未来的研究,以学习自然语言连续指定的许多复杂的操纵技能。 http://hulc.cs.uni-freiburg.de可用代码库和训练有素的模型
translated by 谷歌翻译
在开放世界中运行的机器人会遇到各种不同的环境,这些环境可能彼此之间有很大的不同。该域差距也对同时本地化和映射(SLAM)构成了挑战,它是导航的基本任务之一。尤其是,已知基于学习的大满贯方法概括地概括了看不见的环境,阻碍了其一般采用。在这项工作中,我们介绍了连续猛击的新任务,即从单个动态变化的环境扩展到终生的概念到几个截然不同的环境中的顺序部署。为了解决这一任务,我们提出了CL-SLAM利用双NETWORK体系结构来适应新环境,并保留有关先前访问的环境的知识。我们将CL-SLAM与基于学习的和经典的大满贯方法进行比较,并显示了利用在线数据的优势。我们在三个不同的数据集上广泛评估CL-SLAM,并证明它的表现优于几个受到现有基于基于学习的视觉探测方法的基准。我们在http://continual-slam.cs.uni-freiburg.de上公开提供工作代码。
translated by 谷歌翻译
对于任何自主操作的户外机器人或自动驾驶车辆,对移动车辆的强大检测是一项至关重要的任务。解决此任务的大多数现代方法都依赖于使用大型车辆检测数据集(如Nuscenes或Waymo Open Dataset)训练基于图像的检测器。提供手动注释是一种昂贵且费力的锻炼,在实践中不能很好地扩展。为了解决这个问题,我们提出了一种自我监督的方法,该方法利用音频线索来检测视频中的移动车辆。我们的方法采用对比度学习,用于从相应的图像和录制音频对的图像中定位车辆。在使用现实世界数据集进行的广泛实验中,我们证明了我们的方法提供了对移动车辆的准确检测,并且不需要手动注释。我们此外表明,我们的模型可以用作老师来监督仅音频检测模型。该学生模型是在照明变化中不变的,因此有效地弥合了将视力仅作为主要模态的模型固有的域间隙。
translated by 谷歌翻译